經過文字分析後,獲得的結果成為詞(Term),我們利用它建立索引。首先使用獲得的詞建立一個字典,然後對字典按字母順序進行排序,最好合併相同的,行程文件倒排表(Posting List)。
1 使用此產生字典
2 對字典按字母順序排序
3 合併相同的詞,形成文件倒排鏈結串列
在文件倒排表中,有幾個概念需要解釋一下。文件頻率 (DocumeneFreauenoy),表示共有多少個文件包含這個詞。詞頻率( Term Frequency),表示這個文件中包含此詞的個數。在圖1-4 中,左邊是按字母順序排序的字典合併相同詞,並統計出該詞在文件中出現次數的結果。中間和右邊是文件1和文件2 中包含某個詞的次數一詞頻率。它們之間是用鏈結串列的形式串起來的,又因為是根據詞的值來尋找相關文件的,而非在文件中尋找相關的值,和正常順序是相反的,故稱其為文件倒排鏈結串
列或倒排索引。
參考資料:深智數位《CV+AI自己動手完成圖像搜尋引擎》